4.3 容忍区间与容忍限

容忍区间和区间估计并没有共同之处, 只是解有形式上的相似性.

1 背景与定义

如果某工厂生产一种产品, 质量指标 $X \sim N (a, σ^{2})$ (假设都已知). 给定 $β \in (0, 1)$ (通常很小). 以 $F (x; a, σ)$ 记 $N (a, σ^{2})$ 的分布函数, 则可以找到很多 $b_{1} < b_{2}$ : $\begin{matrix} (1.1) & F (b_{2}; a, σ) - F (b_{1}; a, σ) \geq 1 - β, \end{matrix}$ 如 $(b_{1}, b_{2}) = (a - σ u_{\frac{β}{2}}, a + σ u_{\frac{β}{2}})$ . 又可以定义 $b_{3} < b_{4}$ : $\begin{matrix} (1.2) & F (b_{3}; a, σ) \leq β, F (b_{4}; a, σ) \geq 1 - β, \end{matrix}$ 如 $(b_{3}, b_{4}) = (a - σ u_{β}, a + σ u_{β})$ .
这个例子的意义是, 如果指定某个指标需要满足要求在 $B_{1}, B_{2}$ 之间才算合格, 且指定 $β = 0.01$ (合格率至少为 $99 %$ ), 则能否找到 $b_{1}, b_{2}$ , 使得 (1.1) 成立, 且 $B_{1} \leq b_{1} < b_{2} \leq B_{2}$ ?

如果 $a, σ$ 已知, 则这里没有统计问题. 否则, $b_{1} \sim b_{4}$ 需要根据 $X$ 来估计. 比如如果有估计量 ${\hat{b}}_{i} (X_{1}, \dots, X_{n}) = {\hat{b}}_{i}$ , 则能否有 $F ({\hat{b}}_{2}; a, σ) - F ({\hat{b}}_{1}; a, σ) \geq 1 - β$ ? 由于随机性, 我们只能降低到这个事件的概率 $\geq 1 - γ$ . 这就引导出容忍区间/容忍限的概念.

设 $X \sim F (x)$ , 分布未知. $X_{1}, \dots, X_{n} \overset{i . i . d}{\sim} X$ . 给定 $β, γ \in (0, 1)$ . 设 $T_{i} = T_{i} (X_{1}, \dots, X_{n})$ 为统计量, $T_{1} \leq T_{2}$ .

容忍区间容忍限

$[T_{1}, T_{2}]$ 是 $F$ 的一个 $(β, γ)$ 容忍区间, 如果 $P_{F} (F (T_{2}) - F (T_{1}) \geq 1 - β) \geq 1 - γ .$ 称 $T_{3}, T_{4}$ 为 $F$ 的** $(β, γ)$ 容忍上/下限**, 如果 $\begin{aligned} P_{F} (1 - F (T_{3}) \geq 1 - β) = P_{F} (F (T_{3}) \leq β) \geq 1 - γ, \\ P_{F} (F (T_{4}) \geq 1 - β) \geq 1 - γ . \end{aligned}$

形式上容忍区间和置信区间相似, 但它们实质不同. 后者是为了估计分布中的未知参数, 而前者中 $b_{1}, b_{2}$ 无穷多, 我们并不关心某对确定的 $(b_{1}, b_{2})$ , 而是关心 $F (T_{2}) - F (T_{1}) \geq 1 - β$ 这件事是否成立.

2 容忍区间、容忍限的求法

2.1 $(- \infty, \infty)$ 上处处连续的分布函数 $F (x)$

引理

设一维变量 $X \sim F (X)$ , $F (X)$ 处处连续, 则 $Y = F (X) \sim Uniform (0, 1)$ .

证明

由于 $0 < Y < 1$ , 只需对 $0 < y < 1$ 证明 $P (Y < y) = y$ . 记 $t = inf {x | F (x) \geq y}$ , 则因为 $F (x)$ 处处连续、非降, $F (t) = y$ , 以及 $F (x) < y \Leftrightarrow x < t .$ 从而 $P (Y < y) = P (F (X) < y) = P (X < t) = F (t) = y .$

现设 $X_{1}, \dots, X_{n}$ 为 $X$ 的独立观察值, 次序统计量为 $X_{(1)} \leq \dots \leq X_{(n)}$ . 根据引理, 若 $U_{i} = F (X_{i})$ , 则 $U_{1}, \dots, U_{n} \sim Uniform (0, 1)$ . 因此若 $U_{(1)} \leq \dots \leq U_{(n)}$ , 则 $U_{(i)} = F (X_{(i)})$ . 记 $V_{i j} = U_{(j)} - U_{(i)}$ , 则 $V_{i j}$ 的密度已经在这里给出. 则 $P (F (X_{(j)}) - F (X_{(i)}) \geq 1 - β) = P (V_{i j} \geq 1 - β) = \int_{1 - β}^{1} g_{n i j} (v) d v .$
如果选择了 $i, j$ 让积分不小于 $1 - γ$ , 则根据定义 $[X_{(i)}, X_{(j)}]$ 就是 $F$ 的 $(β, γ)$ 容忍区间. 一般地, 选择 $i + j = n + 1$ (或者 $n, n + 2$ ), 这样得到的区间稍微短一点.
同样地对容忍上下限, $P (F (X_{(i)}) \geq 1 - β) = P (U_{(i)} \geq 1 - β),$ 代入 $F (x) = x, f (x) = 1$ , 得 $\begin{aligned} P (F (X_{(i)}) \geq 1 - β) = \int_{1 - β}^{1} g_{n, i, n - i + 1} (v) d v, \\ P (F (X_{(j)}) \leq β) = \int_{0}^{β} g_{n, j, n - j + 1} (v) d v . \end{aligned}$
选择 $i, j$ 让右边的积分 $\geq 1 - γ$ , 则 $X_{(i)}, X_{(j)}$ 就是 $F$ 的 $(β, γ)$ 容忍上/下限.

2.2 正态分布

正态分布函数处处连续, 所以可以用上一节的结果. 但它比较粗糙, 因此这里把它精细化.
设 $X_{1}, \dots, X_{n} \overset{i . i . d}{\sim} N (a, σ^{2})$ , $a, σ$ 未知. (如果已知, 前面已经介绍了结果.) 由于估计的随机性, $(β, γ)$ 容忍上限不见得是 $\overset{―}{X} + S u_{β}$ , 而需要加入修正系数 $λ = λ (β, γ)$ . 记分布函数 $F_{a, σ} (x)$ , 则 $F_{a, σ} (\overset{―}{X} + λ S) \geq 1 - β ⟺ \overset{―}{X} + λ S \geq a + σ u_{β},$ 从而问题转化为求 $λ$ : $P (\overset{―}{X} + λ S \geq a + σ u_{β}) \geq 1 - γ .$ 记 $S^{'} = \frac{S}{σ}$ , $\frac{\sqrt{n} (\overset{―}{X} - a)}{σ} = Y$ , 则 $\begin{matrix} (2.1) & P (\frac{Y - \sqrt{n} u_{β}}{S^{'}} \geq - \sqrt{n} λ) \geq 1 - γ . \end{matrix}$ 由于 $Y ⊥ ⊥ S^{'}$ , $S^{'} \sim \sqrt{\frac{χ_{n - 1}^{2}}{n - 1}}$ , $Y \sim N (0, 1)$ , 从而 $\frac{Y - \sqrt{n} u_{β}}{S^{'}} \sim t_{n - 1, δ}, δ = - \sqrt{n} u_{β} .$ 如果能确定 $λ^{'}$ , 使 $P (t_{n - 1, δ} \geq λ^{'}) = 1 - γ$ , 则 $λ = - \frac{λ^{'}}{\sqrt{n}}$ 就满足 (2.1) 了. 这样容忍上下限就是 $\overset{―}{X} \pm λ S$ .

对于容忍区间, 首先得到上面的容忍限, 然后根据下面的引理得到:

引理

若 $T_{1}, T_{2}$ 是 $F$ 的 $(\frac{β}{2}, \frac{γ}{2})$ 的容忍上下限, 且总有 $T_{1} \geq T_{2}$ , 则 $[T_{2}, T_{1}]$ 是 $F$ 的 $(β, γ)$ 容忍区间.

近似解法: $Φ (x)$ 是 $N (0, 1)$ 的分布函数, 找 $b$ 使 $Φ (\frac{1}{\sqrt{n}} + b) - Φ (\frac{1}{\sqrt{n}} - b) = 1 - β .$ 再算出 $λ = \frac{\sqrt{n - 1} b}{\sqrt{χ_{n - 1}^{2} (γ)}}$ , 则 $[\overset{―}{X} - λ S, \overset{―}{X} + λ S]$ 近似地为 $F$ 的 $(β, γ)$ 容忍区间.